华南师范大学环境研究院

科学研究

构建人工智能与环境科学共同发展的完整蓝图

2023-09-04 09:52:00 来源:华南师范大学环境研究院 点击:

华南师范大学环境学院华佩,亥姆霍兹环境研究中心(UFZ)王臻宇等在The Innovation Geoscience上发表论文“构建人工智能与环境科学共同发展的完整蓝图”。

导读

人工智能(AI)具有非线性和灵活性的模型结构,能够通过大数据揭示环境科学中复杂变量之间的关系,在环境科学中的应用具有巨大潜力。然而,目前人们对AI与环境科学结合过程中的问题和挑战缺乏一定理解,特别是忽视了在数据、模型和结果层面上的一些缺失之处。本文强调了降低AI对数据的依赖性和改善环境数据管理的重要性,并探讨了AI模型解释性和环境机理探索的问题,最后提出了AI在新型环境数据应用时可能面临的问题和展望。

图片2.png

引言

环境科学为跨学科领域专业,探究人类与自然环境之间的复杂相互作用。但随着对环境问题更深入的探究,环境科学的发展受到了自然系统的非线性、环境中的隐性变化以及多重环境问题的叠加作用的阻碍,使得对环境科学的复杂性和动态性的正确解读造成了巨大挑战。

人工智能(AI)正高速发展,其强大的非线性特性和灵活的模型架构使其能够揭示大数据集背后变量之间的复杂关系,因此具有巨大潜力来解决上述环境科学中的挑战。根据最近的研究统计,AI技术已经运用到环境科学的许多领域,包括数据收集和分析信息化、环境变量预测、化学筛选分析、风险评估和管理以及环境决策制定(图1A)。

尽管AI对环境科学的影响日益增强,但AI所带来的问题和挑战却鲜有讨论。例如,数据质与量的不足、模型解释困难以及模型结果的偏差影响着AI在环境科学上应用的可靠性,这也是AI和环境科学共同发展的完整蓝图上缺失的部分(图1B)。随着下一代AI技术发展,有必要更多关注或重新思考如何应对新的AI浪潮对环境科学的影响,以及如何在这两个科学领域中共同发展。

 

数据依赖和环境数据管理

数据问题是AI在环境科学应用的第一块缺失部分,数据的质与量决定了AI的性能。这也是环境科学中面临的挑战。数据的质与量受限于环境检测系统、数据来源不统一和数据库维护不足等原因,会影响AI对环境数据的分析结果。因此,开发具有弱数据依赖性的自适应AI技术以及改善环境数据管理是解决AI技术在环境科学中应用中的数据问题的关键。

从AI的角度来看,通过数据增强、模型验证和学习优化算法,可以减少AI的数据依赖性,并自适应地解决数据的质与量问题。应用数据增强(例如,数据模糊化、自举重采样和深度生成模型)可以改进原始数据中的特征信息或分布,并扩展数据集,改善小型环境数据集上的AI性能方面取得了成功;提高模型验证数据的利用率(例如留一验证)可以减轻由小数据集引起的模型可靠性问题;利用正则化技术可以鼓励模型权重中的稀疏解,并关注更重要的数据特征。

除了减少AI对数据的依赖性,有效的环境数据管理是解决AI和环境科学共同发展中的数据问题的基础。全面的数据管理包括几个步骤:加强数据记录、数据采集标准化、数据库建立和数据共享推广。前两个步骤是数据管理的基础,提高数据透明性、一致性、协调性和可靠性等,有助于在AI技术应用于环境科学时避免数据问题;后两个步骤是数据管理发展的重点,它们增强了AI应用的数据可访问性,并促进了环境研究的发展。鉴于数据管理在监管和科研社区中的重要作用,需要环境科学家的协作努力来改进环境数据管理。

AI模型解释和环境机制探索

对AI模型的解释是第二个缺失部分,这部分也由于AI算法的黑盒特性,常常在AI应用中被忽视。可解释人工智能(XAI),正在快速发展,旨在实现AI中的公平性、问责制、透明性和可解释性(FATE)。启发式分析是XAI发展的一个分支。它是一种事后XAI方法。在这种方法中,用户根据他们的先验先验知识和对算法的部分理解,启发性地解释AI结果。

尽管启发式分析在理解模型逻辑方面具有便利性和潜在适用性,但在数据偏见的影响下可能对结果解释造成偏差。机理约束的AI神经网络算法(PINN)的发展可以解决这个问题。它可以将偏微分方程(PDEs)描述的物理定律整合到AI结构中,从而规范化AI的学习过程,增加了AI的鲁棒性和结果的可靠性。

模型结果偏差和新型环境数据类型

AI结果的偏差控制是第三块缺失的部分。数据的质与量和合适的AI算法是控制模型的可靠性、鲁棒性和泛化能力的关键。例如,卷积神经网络和循环神经网络具有独特的神经网络结构,使它们在处理空间和时间数据方面具有优势;模糊逻辑系统使用隶属函数来处理分类数据,如涉及非线性和不确定性的环境质量指数。这些例子说明,精细化的数据整理和深入了解AI算法特性,才可以在将AI应用于环境科学问题时,减少AI结果的偏差。

随着环境科学的发展,研究已经从利用一维监测数据转变为利用二维图像数据(例如,传感器和卫星图像)。预计在未来,具有更高维度信息的文本类型数据(例如,社交媒体和新闻)也可能在环境数据分析中发挥关键作用。然而,对于这种类型的数据中的偏差控制仍然具有挑战性。例如,大型语言模型ChatGPT因其在各个领域的文本生成和信息摘要能力而备受欢迎,但该模型可产生误导性的结果。信息的混淆妨碍了专家对于信息判断的准确性,从而导致研究的偏差。因此,评估这些新类型数据的偏差是我们未来在AI和环境科学共同发展中需要关注的问题。

原文链接:http://www.the-innovation.org/geoscience/article/10.59717/j.xinn-geo.2023.100007

Wang Z., Zhang J., Hua P., et al. (2023). Filling in missing pieces in the co-development of artificial intelligence and environmental science. The Innovation Geoscience 1(1), 100007.